近些年,深度学习在学术界和产业界大放异彩,取得了巨大成功;另外,迁移学习、集成学习和强化学习等先进的机器学习模型也崭露头角,出现了百花齐放、百家争鸣的局面。其中集成学习是颇受青睐的机器学习方法之一。集成学习的主要思想是采用群体智慧决策方式,将多个机器学习算法通过不同方式和策略集成起来,因为集成的多个机器学习结果比单个机器学习具有更好的泛化性和更高的精确度。
联合多个模型解决问题的思想具有悠久的历史。20世纪90年代以来,集成学习一直是热门的研究课题,近些年在诸多机器学习算法竞赛和数据科学竞赛中展现出了惊人的效果。目前,集成学习将几种机器学习技术结合成预测模型的元算法,以减小方差和偏差以及改进预测。根据集成方式和学习模式,学术界已经形成两种集成范式,分别是同质集成(homogeneous ensemble)和异质集成(heterogeneous ensemble)。根据基础分类器的生成方式,可以形成串行生成基础分类器(串行集成方法)和并行生成基础分类器(并行集成学习)。典型代表有AdaBoost 和Bagging。本书详细介绍了LogitBoost、LightGBM、XGBoost、CatBoost等集成学习变体模型。
目前,关于集成学习著作比较少,主要是周志华教授团队编写的Ensemble Methods Foundations and Algorithms。不过,该书的出版时间较早(2012年出版英文,2020年出版了中文译著),未涉及近10年来集成学习的前沿理论和技术;另外该书主要偏向前沿理论,缺少算法实现和案例配套。
本书的引进可谓恰逢其时,填补了集成学习领域著作方面的不足。本书图文并茂地对深奥的集成学习理论和方法进行描述,并结合大量的案例和应用程序,引导读者边思考边实践,从而逐步加深对集成学习的理解,并将这些新方法、新理论和新思想用于自己的研究。本书梳理了集成学习近20年来的前沿理论和技术,主要从集成学习基础知识、集成方式和集成学习数据集制作、特征提取和可解释性三个方面进行了专题讨论,还讨论集成学习理论以及与概率机器学习和深度学习的结合策略。本书包含大量的图、案例以及Python代码实现,读者可以一边阅读一边动手实践。本书面向计算机、人工智能和大数据专业的高年级本科生和研究生,也面向对机器学习与集成学习感兴趣的研究人员和企业工程师。
在翻译本书的过程中,得到了很多人的帮助。成都文理学院外国语学院何静老师、电子科技大学外国语学院研究生尹秋委、西南交通大学外国语学院英语专业钱益萱和电子科技大学外国语学院研究生相思思参与了本书的审校。最后,感谢清华大学出版社的编辑,他们完成了大量的编辑与校对工作,保证了本书的质量,使本书符合出版要求。在此深表感谢。
由于本书涉及的广度和深度较大,加上译者翻译水平有限,在翻译过程中难免有不足之处,欢迎各位读者批评指正。